摘要 - 基于偏好的奖励学习是一种教授机器人和自主系统的流行技术,人类用户如何希望他们执行任务。以前的作品表明,积极合成偏好查询以最大程度地提高有关奖励函数参数的信息增益可提高数据效率。信息增益标准着重于确定奖励函数的所有参数。这可能会浪费,因为许多参数可能会带来相同的奖励,并且许多奖励可能会导致下游任务中相同的行为。取而代之的是,我们表明可以优化学习奖励功能到行为等价类,例如在行为上诱导相同的排名,对选择的分布或其他相关奖励相似的相关定义。我们引入了一个可捕获的框架,该框架可以捕获相似性的这种定义。我们在合成环境中进行的实验,具有域转移的辅助机器人环境以及使用真实数据集的自然语言处理问题,证明了我们的查询方法的出色性能,而不是最先进的信息增益方法。
主要关键词
![arxiv:2403.06003v1 [CS.RO] 2024年3月9日PDF文件第1页](/bimg/d/dfc8b0ac542e1bb1b4a9222b9272d8e6d94e58ce.webp)
![arxiv:2403.06003v1 [CS.RO] 2024年3月9日PDF文件第2页](/bimg/1/1a82df17b9fef67a9724cf5a397c5ffed371a24f.webp)
![arxiv:2403.06003v1 [CS.RO] 2024年3月9日PDF文件第3页](/bimg/d/d77485c4ec662cca0be5d92d13e67de2848d8cdc.webp)
![arxiv:2403.06003v1 [CS.RO] 2024年3月9日PDF文件第4页](/bimg/9/9becd86c92037407cc030e7e85dc5e57adb2da89.webp)
![arxiv:2403.06003v1 [CS.RO] 2024年3月9日PDF文件第5页](/bimg/e/e3f1c07afec9cfb7003005a114ce19b0a120bbb8.webp)
